Анализа (отворених) података¶
Пред вама је приручник за самостално истраживање јавно доступних података. Циљ ових материјала је да се кроз примену идеја анализе и визуализације података на јавно доступним подацима одговори на питања о доступности образовања, сезоналности грипа, ликовима из књиге Ана Карењина и сл.
На крају приручника, у одељку Додатак налазе се и радне свеске које ће вас провести кроз процес припремања података за анализу каква је приказана у приручнику. Ове четири свеске можете прочитати након што завршите са целим приручником, али можете их читати и упоредо са одговарајућим поглављем у приручнику како би вам било јасније како смо дошли до облика података који се користи у лекцијама.
Наједноставнији начин да отворите свеске унутар Џупајтера је да одете на следећи линк https://mybinder.org/v2/gh/Petlja/JupyterRadneSveskeSrb-files/master. Овај сервис (Binder) вам неће трајно сачувати оно што радите, али вам даје могућност да брзо баците поглед како свеске изгледају отворене у Џупитеру.
Свеске можете отворити и у неком од сервиса у облаку који омогућава да сачувате оно што радите, као што је Azure Notebooks. Након што се улогујете на Azure Notebooks идите на My Projects и ту изаберите Upload Github Repo. У форми која се након тога отвори у поље GitHub repository унесите https://github.com/Petlja/JupyterRadneSveskeSrb-files , остала поља и опције у тој форми изаберите према вашој жељи и на крају кликните на Import. Уколико је све прошло како треба, у листи ваших пројеката ће се приказати нови пројекат, можете га отворити и покренути.
Уколико свеске желите да отворите у локалној инсталацији Џупитера можете преузети ZIP пакет са свескама: https://github.com/Petlja/JupyterRadneSveskeSrb-files/archive/master.zip. Биће довољно да распакујете зип негде на свој рачунар, покренете setup.bat фајл и након тога покренете START_JUPYTER.BAT. За више детаља прочитајте README.TXT који се налази у фолдеру.
Како се материјали надовезују на сегмент Рад са подацима у текстуалном програмском језику, предлажемо подсећање на рад у Џупитеру у програмском језику Пајтон и специјално коришћење библиотека pandas и matplotlib.
Преглед материјала и тематских целина:¶
Високо образовање - основни типови визуализације података о броју дипломираних студената (линијски, стубичасти, секторски дијаграми); анализа популарности различитих студијских програма и факултета (тачкасти и интерактивни дијаграми).
Средњошколско образовање - анализа података о величини школа, интересовању за различите образовне профиле међу дечацима и девојчицама (стубичасти дијаграми, фреквенцијска анализа и хистограми); доступност и разноврсност образовања по регијама (тачкасти дијаграми); визуализација регионалних података на мапи.
Сезона грипа - анализа података временског типа - број узорака заражених грипом по државама и регионима из недеље у недељу.
Анализа текста - фреквенцијска анализа слова у истом тексту на два језика; фреквенцијска анализа речи и Зипфов закон (фитовање података); заступљеност ликова у тексту књиге Ана Карењиа - праћење популарности кроз поглавља и кроз мрежу “познанстава”.
Градски саобраћајни превоз - анализа временских и просторних правилности у подацима о јавном превозу, употреба дводимензионалних хистограма.
Анализа саобраћајних незгда - анализа и приказ просторних података уз помоћ интерактивних дијаграма на мапи.
Додатак:¶
Студенти у Републици Србији - припрема података
Средњошколци у Републици Србији - припрема података
Анализа текстуалних података - припрема текста са блога и/ли сајта
Анализа текстуалних података - припрема књиге за анализу
Садржај¶
1.0: Основни типови визуализације података
1.1: Студенти основних студија у Републици Србији
2.1: Средњошколци у Републици Србији - први део
2.2: Средњошколци у Републици Србији - други део
2.3: Средњошколци у Републици Србији - трећи део
3.1: Сезона грипа
4.1: Анализа текстуалних података
4.2: Анализа текстуалних података - Aна Карењина
5.1: Градски саобраћајни превоз
6.1: Саобраћајне незгода на територији града Београда
Додатак¶
1. Студенти у Републици Србији - припрема података
2. Средњошколци у Републици Србији - припрема података
3. Анализа текстуалних података - припрема текста са блога и/ли сајта